moe

华为发布OmniPlacement技术,实现超大规模MoE专家最优动态部署,提升昇腾推理系统吞吐10%

在人工智能技术日新月异的当下,大语言模型的发展持续突破边界。混合专家模型(MoE)作为提升大语言模型性能的关键技术,近年来备受瞩目。它通过将输入 token 分配给不同的专家网络,实现了模型的高效扩展,让模型在处理复杂任务时展现出更强的能力。然而,如同硬币的两

推理 moe omniplacement 规模moe omn 2025-05-20 21:03  8

从数据到模型:看 DEEPSEEK 如何用训练优化改写 AI 规则

在人工智能与数据安全双重浪潮的推动下,DeepSeek大模型一体机作为国产化大模型落地的“黄金载体”,正以颠覆性姿态开辟全新市场赛道。这一技术产品并非渐进式创新,而是由数据主权觉醒、国产算力崛起、政策强驱动三大变量催生的爆发式机会点。其核心价值在于以“开箱即用

训练 模型 deepseek moe 图像缩放 2025-05-19 12:10  17

最新消息!DeepSeek发表重磅级论文

论文揭示了硬件与模型架构的深度耦合:采用FP8混合精度训练降低60%显存占用,结合多平面Fat-Tree网络拓扑将集群通信成本压缩至传统架构的40%,而专家并行(EP)与节点限制路由策略更让大规模MoE模型在2048块H800 GPU上实现高效训练。

论文 agent rpa deepseek moe 2025-05-16 15:25  11

梁文锋署名,最新论文发布

这篇论文深入分析了DeepSeek-V3/R1模型架构及其人工智能基础架构,重点介绍了一些关键创新,如提高内存效率的多头潜意识(MLA)、优化计算与通信权衡的专家混合(MoE)架构、释放硬件能力全部潜力的FP8混合精度训练,以及最大限度降低集群级网络开销的多平

论文 moe 文锋 mla reflections 2025-05-16 13:27  18

梁文锋署名,DeepSeek-V3回顾性论文发布

这篇论文深入分析了DeepSeek-V3/R1模型架构及其人工智能基础架构,重点介绍了一些关键创新,如提高内存效率的多头潜意识(MLA)、优化计算与通信权衡的专家混合(MoE)架构、释放硬件能力全部潜力的FP8混合精度训练,以及最大限度降低集群级网络开销的多平

论文 moe 文锋 mla reflections 2025-05-16 11:57  9

算力的竞争:从暴力计算到效率觉醒

当ChatGPT掀起全球AI竞赛时,硅谷巨头们曾断言“算力即权力”,认为千亿参数模型必须依赖海量GPU的堆砌,大模型的训练动辄就万卡集群,英伟达的H100芯片被炒至4.5万美元的天价。然而,DeepSeek以行业十分之一的训练成本打造的MoE模型,却在多个基准

竞争 英伟达 gpu moe 诺依曼 2025-05-14 10:30  13